메뉴

#하드웨어 최적화

HN
Hacker News 16일 전
IMP 8

내 하드웨어에 최적화된 로컬 LLM 벤치마크 순위 추천

사용자의 GPU, CPU, RAM을 자동 감지하여 HuggingFace의 최신 모델 중 시스템에 맞는 최적의 로컬 LLM을 벤치마크 점수 기반으로 순위 매기는 오픈소스 CLI 도구입니다. 단순히 용량만 맞추는 것을 넘어 실제 성능 평가 지표와 최신성을 반영해 가장 우수한 모델을 추천하는 것이 특징입니다. 단 한 줄의 명령어로 추천 모델을 다운로드하고 즉시 채팅을 시작할 수 있어 로컬 환경 구축에 매우 유용합니다.

로컬 LLM 오픈소스 도구 하드웨어 최적화
LL
r/LocalLLaMA 37일 전
IMP 9

단일 RTX 3090으로 85 TPS·12만5천 컨텍스트 구현

알리바바의 Qwen3.6-27B 모델이 출시된 지 하루 만에, 단일 소비자용 그래픽 카드(RTX 3090 24GB)에서 데이터센터급 추론 속도(85 TPS)와 12만 5천 토큰의 컨텍스트, 그리고 비전(Vision) 기능을 구현한 오픈소스 스택이 등장했습니다. 이는 기존 API 의존 없이도 GPT급 속도와 개인정보 보호, 무료 추론 비용을 모두 누릴 수 있게 되었음을 의미합니다. 저자는 vLLM의 버그 패치 4개와 최적화를 통해 이론적으로 불가능해 보이던 하드웨어 한계를 극복한 구체적 과정을 공유합니다.

로컬 추론 오픈소스 LLM vLLM